這篇其實又再推坑GCP啦!主要會講到DataFlow和一些TensorFlow耶~。
↓↓↓↓↓正文↓↓↓↓↓
串流資料(Stream Data)和批量資料(Batch Data),是啥密碗糕?
串流資料我們可以間單的理解成一連串的資料,而這一連串的資料來源,在機器學習產品應用裡指的通常
就是使用者反饋的部分,一個產品通常會有大量的使用者,而大量的使用者反饋就成了連續性的資料(Stream Data)
而批量資料通常指的是歷史的資料,這種資料通常被存放在資料庫~ 下圖可以看到我們在訓練ML model時,
兩種資料都會用到,而創造出完美的資料流也是我們在訓練ML的重要環節。
我們當然可以選擇匯集Stream Data 以及 Batch Data進去餵給 Model 吃,不過重要的一點,
我們在處理這兩種資料的方式一樣嗎?這件事情有點嚴肅,我們都知道ML model based on Data
也就是說我們如果拿到Stream Data 和 Batch Data之後處理的方式不一樣,我們可能會使我們的Model
學歪,所以這是一個重要的問題。
Cloud DataFlow 是GCP上一個用於處理Stream Data 以及 Batch Data的一個服務,
而它完全在GCP上運行,透過Cloud DataFlow 我們可以放心的把Stream Data 和 Batch Data,
餵給Cloud DataFlow ,在經過Cloud DataFlow處理完資料後,Cloud DataFlow 處理資料時會對
Stream Data 和 Batch Data有不同的處理流程,這樣輸出的資料直接餵給ML model,
就可以訓練出完美的Model啦~
以上是Data在GCP上的流動方式,以及Cloud DataFlow。
-我是Dim _ 第七天晚安